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(57) Abstract: The invention concerns a method for thematic classification of documents, in particular for constituting or updat- 
ing thematic databases (42) for a search engine, comprising steps which consist in: selecting documents representing each theme; 
identifying in the selected documents elements characteristic of each theme; assigning to each identified element a coefficient (R) 
representing the relevance of said element relative to the corresponding theme; and, for each document (50) to be classified, iden- 
tifying said elements characteristic of each theme it contains, and for each theme which corresponds to them, computing from the 
coefficient assigned to said elements, the value of a characteristic representative the relevance to die theme for said document (50) 
to determine whether said document is related or not to said theme. 



(57) Abrege: Ce proce'de' de classification the'matiqiie de documents, notamment pour la constitution ou la mise a jour de bases de 
donnees themauques (42) pour moteur de recherche, comprend les e'tapes de selection de documents representatif s de chaque theme, 
identification, dans les documents selectionne*s, des elements caracteristiques de 
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chaque theme, affectation, a chaque element identifie\ d'un coefficient (R) repre*sentatif de la pertinence de cet element vis a vis du 
theme correspondant et, pour chaque document (50) a classifier, identification desdits elements caracteristiques de chaque theme 
qu'il contient et, pour chaque theme qui leur correspond, calcul, a partir du coefficient affecte' a ces elements, de la valeur d'une 
caracteristique representative de la pertinence du theme pour ce document (50) pour decider si ce document porte ou non sur ce 
theme. 
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Precede de classification thematigue de documents, module de 
classification thematigue et moteur de reche rche incorporant 

' un tel module 

La presente invention se rapporte a un proc6d§ de 

classification thematique de documents, destine, en 

particulier, £ la constitution ou la mise a jour de bases 

de donn£es th£matiques, en particulier pour moteur de 

5 recherche. 

Elle se rapporte £galement a un module de 
classification thematique de documents et a un moteur de 
recherche 6quipe d'un tel module de classification 
thematique. 

10 On connait, a ce jour, principalement deux outils 

inf ormatiques permettant de rechercher des documents sur 
un r§seau inf ormatique, comme par exemple, le reseau 
Internet- 

Ces outils sont le moteur de recherche et le guide. 
15 Un moteur de recherche est un outil permettant 

d'extraire d'une information, principalement textuelle, 
les mots ou termes qui la representent le mieux et de les 
stocker dans des bases de donnees, egalement connues sous 
1 1 appellation "base d ' index" . 
20 De telles bases d' index sont g6n6ralement mises k 

jour relativemenf frequemment. 

En reponse a une requite formulee par un 
utilisateur, ce meme outil parcourt les bases d f index 
afin d T identifier les termes les plus pertinents par 
25 rapport a ceux de la requete, puis de trier les 
informations a fournir en retour. 

L 1 autre technique de recherche de documents sur un 
reseau inf ormatique consiste & utiliser un guide. Get 
outil propose des recherches par categories, les pages de 
30 documents £tant class£es manuellement par des 
documentalistes . 

Ces types d 1 outil pr^sentent un certain nombre 
d 1 inconvenients . 

Tout d'abord, les moteurs de recherche ne proposent 
35 pas de classement de pages de document par categories. En 
effet, les pages fournies en reponse a une requete ne 
sont pas typ£es. Ainsi, des requetes ambigues peuvent 
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donner lieu a des reponses tres diverses, ressenties 
comme du bruit par 1 1 utilisateur . 

Les guides, au contraire, permettent de fournir a un 
utilisateur des reponses typees, c'est a dire portant sur 
5 le ou les memes themes que la requete. 

Cependant, le classement manuel des pages de 
document implique de forts couts de creation et de mise a 
jour et ne permet 1' indexation que d'un nombre limits de 
pages. Par consequent, certaines requetes n'obtiennent 
10 pas de reponse. 

Le but de I 1 invention est de palier les 
inconvenients des moteurs de recherche et des guides. 

Elle a done pour objet un procede de classification 
thematique de documents, notamment pour la constitution 
15 ou la mise a jour de bases de donnees thematiques pour 
moteur de recherche, caracterise en ce qu'il comporte les 
etapes suivantes : 

- on selectionne un echantillon de documents 
representatif s de chaque theme ; 

20 " on identifie, dans les documents selectionnes, des 

elements caracteristiques de chaque theme ; 

- on affecte, a chaque element identifie, un 
coefficient representatif de la pertinence de cet element 
vis a vis du theme correspondant ; 

25 " pour chaque document a classifier, on identifie 

lesdits elements caracteristiques de chaque theme qu'il 
contient et, pour chaque theme qui leur correspond, on 
. calcule, a partir du coefficient affecte a ces Elements, 
la valeur d'une caracteristique representative de la 

30 pertinence du theme pour ce document, pour decider si ce 
document porte ou non sur ce th£me, lesdites etapes 
d' identification et de calcul etant realisees 
automatiquement pour chaque document recupere sur un 
reseau informatique ; 

35 - on classe les documents recuperes en fonction des 

themes qui y sont abordes ; et 
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- l'on stocke les documents classes par themes dans 
des bases de donnees interrogeables a partir de themes 
contenus dans une requete ; 

et en ce que l'etape d' affectation dudit coefficient 
a chaque element identifie comprend les etapes suivantes, 
pour chaque theme : 

- calcul de la frequence de 1' element dans les 
documents selectionnes portant sur ce theme ; 

- calcul de la frequence de 1' element dans le 
documents selectionne ne portant pas sur ce theme ; et 

- calcul du rapport entre les frequences calculees. 
On classe ainsi les documents recuperes sur 

reseau informatique en fonction des themes qui y sont 
abordes et ce, de facon automatique. 

Le procede de classification selon 1" invention peut 
en outre comporter une ou plusieurs des caracteristiques 
suivantes, prises isolement ou selon toutes les 
combinaisons techniquement possibles : 

- il comporte en outre une etape de tri des themes 
selon une arborescence de themes et par ordre decroissant 
des coefficients ; 

- l'etape de calcul de la caracteristique 
representative de la pertinence du theme d'un document a 
classifier comprend les etapes suivantes pour chaque 

25 theme : 

. on lit la valeur du rapport desdites frequences 
de chaque element representatif du theme extrait du 
. document, 

. on multiplie les valeurs lues, et 
. on affecte le resultat de cette multiplication a 
la valeur de ladite caracteristique ; 

- l'on decide que le document porte sur un theme si 
la valeur de ladite caracteristique representative de la 
pertinence du theme pour ce document est superieure a une 

35 valeur de seuil ; 

- la valeur de seuil est elaboree, pour chaque 
theme, a partir desdits rapports de frequence, selon la 
relation suivante : 
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score . seuil th6me = (R^) ntheme 
dans laquelle : 

score . seuil th6me designe la valeur de seuil 
Rmoy represente la valeur moyenne des rapports de 

frequences R des elements du theme et, 
ntheme designe un nombre predetermine ; 

- selon une variante, la valeur de seuil est reglee 
manuellement ; 

- les etapes d' identification des elements 
caracteristiques de chaque theme contenu dans un document 
sont realisees au moyen d'une table de hachage ; et 

- on calcule, pour chaque element de vocabulaire 
d'une requete formulee par un utilisateur, des 
coefficients caracteristiques de 1' element par rapport a 
chaque theme connu et l'on associe a chaque element les 
coefficients et les themes correspondants, de sorte que 
lesdits coefficients atteignent une valeur minimale. 

Lors de la recherche des entrees d' index, c'est a 
dire au cours de ia recherche des documents 
20 correspondants a la requete, il est ainsi possible 
d'acceder directement aux themes lies a chaque element et 
aux coefficients correspondants que l'on combine par 
multiplication afin de determiner un classement des 
themes lies a la requete entiere. 
25 L' invention a egalement pour objet un module de 

classification thematique de documents, notamment pour 
moteur de recherche, caracterise en ce qu'il comporte une 
. unite centrale de traitement comprenant des moyens de 
comparaison d' elements extraits de chaque document avec 
30 des elements caracteristiques de differents themes, 
affectes chacun d'un coefficient representatif de la 
pertinence de cet element pour un theme correspondant, et 
des moyens de calcul de la valeur d'au moins une 
caracteristique representative de la. pertinence d'un 
theme pour ce document, a partir des coefficients desdits 
elements caracteristiques qu'il contient, pour decider si 
ce document porte ou non sur ce theme, ladite unite 
centrale etant raccordee a des moyens de stockage de 
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documents classes par themes, interrogeables a partir de 
themes contenus dans une requite, et en ce qu'il comporte 
des moyens de calcul de la frequence de 1' element dans 
les documents selectionnes portant sur ce theme, des 
5 moyens de calcul de la frequence de 1' element dans les 
documents selectionnes ne portant pas sur ce th£me, et 
des moyens de calcul du rapport entre les frequences 
calculees . 

Un autre objet de 1' invention est un moteur de 
10 recherche de documents sur un reseau inf ormatique, 
comprenant un module d ! indexation pour la creation et la 
mise a jour de bases de donnees thematiques, a partir de 
documents recuperes sur le reseau inf ormatique, et un 
module d 1 interrogation des bases de donnees adaptees pour 
15 fournir des references de documents correspondant a une 
requite regue en entree, caracterise en ce qu'il comporte 
en outre un module de classification thematique tel que 
definit ci-dessus, associe au module d 1 indexation . 

D'autres caracteristiques et avantages ressortiront 
20 de la description suivante, donnee uniquement a titre 
d'exemple, et faite en reference aux dessins annexes sur 
lesquels : 

la Fig. 1 est un organigramme montrant les 
principales phases de f onctionnement d'un module de 
25 classification thematique de documents selon 1' invention, 
pour moteur de recherche ; 

la Fig. 2 est un organigramme illustrant la 
. methode de calcul des elements caracteristiques de themes 
; et 

30 - la Fig. 3 est un organigramme montrant la methode 

de calcul des themes d f un document. 

Sur la Fig. 1, on a represente les principales 
phases du procede de classification thematique de 
documents selon 1' invention. 

35 II est destine a permettre le classement de 

documents recuperes sur un reseau inf ormatique, en 
fonction de themes qui y sont abordes. Par exemple, il 
peut etre mis en oeuvre au sein d f un moteur de recherche. 
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Dans ce cas, il intervient des le processus 
d 1 indexation, mais egalement au cours du traitement d'une 
requete formulee par un utilisateur, pour permettre de 
determiner tous les themes abordes dans cette requete. 
5 On congoit toutefois que d'autres applications 

peuvent etre envisagees. Par exemple, ce procede peut 
etre mis en oeuvre au niveau d'un point d'acces d'un 
reseau de postes utilisateurs a un reseau Internet, afin 
de determiner la nature des pages Web recuperees par les 
10 utilisateurs et interdire ou autoriser, par filtrage des 
requetes, certains themes, par exemple, contraires a 
l'ordre public et aux bonnes moeurs, ou encore calculer 
'des statistiques sur les centres d' interet des 
utilisateurs . 

15 Pour proceder a cette classification, le procede 

comporte deux phases distinctes, a savoir une premiere 
phase pr6alable d' acquisition du vocabulaire thematique 
de corpus de documents et d 1 affectation, a chaque mot du 
vocabulaire, d ! une valeur de seuil a partir de laquelle 

20 on decide qu'un document, contenant ce mot, porte sur le 
theme correspondant , ainsi qu'une deuxieme phase de 
classification proprement dite, au cours de laquelle un 
document recup£re sur le reseau est automatiquement 
classifie en fonction des elements caracteristiques qu'il 

25 contient. 

Par exemple cette deuxieme phase intervient 
periodiquement, seuls des documents nouvellement crees ou 
. modifies etant classifies. 

La description de la premiere phase d 1 acquisition du 
30 vocabulaire thematique va maintenant etre en reference 
aux Figs. 1 a 3. 

Comme on le voit sur la Fig. 1, cette phase debute 
par une etape 10 de selection manuelle, a partir d f un 
ensemble 12 d' echantillons (ou corpus) de documents 
35 representatif s de chacun des themes A a Z utilises pour 
classer les documents au cours de la deuxieme phase. 

Ainsi, a l f issu de cette etape 10 de selection 
manuelle, on dispose d'un ensemble de corpus de 
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documents, tels que 14, portant chacun sur un theme 
(th^me A,... theme Z) . Bien entendu 1' etape de selection 
peut egalement etre effectuee par tout moyen autre que 
manuel. 

5 Au cours de cette etape 10 de selection, on cree 

egalement un corpus 16 de documents ne portant sur aucun 
des themes A a Z et on definit une nomenclature 18 des 
themes A a Z, c'est a dire la liste de ces themes 
associes a des sous-themes s f y rapportant. 
10 Lors de l f etape 20 suivante, ces elements sont 

presentes en entree d f un module de classification 
thematique en vue d'extraire de chaque document les 
elements caracteristiques de chaque theme et de les 
affecter chacun d'un coefficient representatif de leur 
15 pertinence vis a vis d ! un theme correspondant . 

Par exemple ce module de classification thematique 
se presente sous la forme d ! un module specif ique d'un 
moteur de recherche, associ£ a un module d f indexation 
r£alisant la creation ou la mise a jour des bases de 
20 donnees thematiques. 

II peut egalement etre agence sous la forme d f un 
module specif ique prevu au niveau d f un point d'acces a un 
reseau informatique, en particulier a un reseau Internet. 

Ce module comprend les moyens logiciels appropries 
pour r^aliser 1" extraction des elements caracteristiques 
de chaque theme et pour les affecter d»un coefficient 
representatif de leur pertinence vis a vis de differents 
themes, comme cela va etre decrit en detail par la suite. 

Au cours de cette etape 20, le module de 
classification extrait, de chaque document selectionne, 
les elements caracteristiques de chaque theme. 

Cette extraction s'effectue en utilisant un outil 
informatique de type classique. II ne sera done pas 
decrit par la suite. 
35 0n dispose a l'issu de cette 6tape 20, de listes 

d 1 elements caracteristiques des themes A a z, telles que 
22. 
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En reference a la Fig. 2, cette procedure 
d' identification du vocabulaire caracteristique de chaque 
theme s f effectue successivement pour chaque element 
extrait des documents de chacun des corpus 14 et 16. 
5 Au cours d'une premiere etape 24, on vide un tableau 

regroupant 1' ensemble des themes candidats, c'est a dire 
les themes susceptibles de correspondre a 1' element 
extrait . 

Lors de 1' etape 2 6 suivante, on procede, pour chaque 
10 theme, a un calcul d'un coefficient R repr§sentatif de la 
pertinence de cet element vis a vis de ce theme. 

Pour proceder a ce calcul, on calcule tout d'abord 
la frequence p de l 1 element dans les documents portant 
sur ce th£me, ainsi que la frequence q de cet element 
15 dans les documents ne portant pas sur ce theme. 

On procede ensuite au calcul du coefficient R, 
constitue par le rapport entre ces frequences p et q. 

Lors de 1 ! etape 28 suivante, on verifie si les 
caracteristiques p, q et R se situent a l'interieur de 
20 limites predetermines . 

Si tel n'est pas le cas, on procede au traitement de 
1 ? element •suivant. 

Si tel est le cas, on ajoute le theme dans le 
tableau des themes candidats avec un score egal au 
25 coefficient R (etape 30) . 

S'il reste des elements a traiter (etape 32), la 
procedure retourne a l 1 etape 2 4 precedente . 

Dans le cas contraire, cette procedure s'acheve. 
On notera que, de preference, apres remplissage du 
30 tableau des themes candidats, celui-ci est trie par ordre 
decroissant des scores R. On notera egalement que pour 
tout theme candidat, jusqu'a un nombre maximum voulu, on 
ajoute un nouvel element recupere dans la liste des 
elements caracteristiques de ce theme, .en se limitant a 
35 un nombre maximum voulu des n meilleurs elements par 
thdme choisi en fonction de leur score R. 

En se referant a nouveau a la Fig. 1, lors de 
l'etape 34 suivante, le module de classification 
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thematique procede a un calcul automatique, au moyen d'un 
algorithme approprie, d f une valeur de seuil correspondant 
a un seuil minimum a atteindre pour determiner si un 
document comprenant un element caracteristique d'un theme 
5 porte ou non sur ce theme. 

Pour proceder a ce calcul, le module de 
classification procede tout d'abord a un calcul de la 
valeur moyenne R moy des rapports R des Elements 
caracteristiques de chaque theme (etape 36) . 

10 II procede ensuite au calcul de la valeur de seuil 

score - seuil th6me , selon la relation suivante : 

score - seuil ch 6me = (Rmoy)ntheme 
dans laquelle ntheme designe un nombre predetermine 
choisi par exemple egal a 5 pour la plupart des themes. 

15 On voit alors sur la Fig. 1, qu'a l ! issu de ce 

calcul automatique des scores a atteindre, on dispose de 
listes, telles que 40, d'elements caracteristiques de 
chaque th£me A a Z, affectes chacun d'un score a 
atteindre, c'est a dire d'une valeur de seuil a partir de 

20 laquelle on considere qu f un document porte sur ce theme. 

Apres cette phase d ? acquisition du vocabulaire 
thematique, realisee a partir de corpus de documents 
representatifs de themes, la deuxieme phase de 
classification thematique proprement dite peut etre 

25 effectuee, dans le but de constituer des bases de donnees 
thematiques, designees par la reference numerique 
generale 42, a partir de documents collectes 
. automatiquement sur le reseau informatique par des 
robots, tels que 44. 
30 Ces documents sont presentes en entree du module de 

classification thematique, qui regoit egalement une 
indication de la nomenclature 18 des themes, ainsi que 
les elements disponibles a l f issu de 1' etape 34 
mentionnee precedemment . Ce module precede a un calcul 
35 automatique des themes sur lesquels porte le document 
(etape 46) . 
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Pour ce faire, il comporte tous les moyens logiciels 
appropries pour realiser les operations mentionnees ci- 
dessous. 

En reference a la Fig. 3, au cours d'une premiere 
5 etape 48 de cette procedure, le module d 1 indexation 
extrait de chaque document 50 recupere par les robots 44, 
les elements caracteristiques de themes qu'il contient. 

Cette 6tape s'effectue, par exemple, en utilisant 
une table de hachage, pour rechercher rapidement dans les 
10 listes d' elements caracteristiques les elements contenus 
dans chaque document. 

Apres extraction de ces elements on identifie, parmi 
ceux-ci, les elements caracteristiques de themes contenus 
dans les listes 40. 
15 Pour chaque element identifie, le module de 

classification precede ensuite a un calcul d'une valeur 
caracteristique representative de la pertinence de chaque 
theme pour ce document, a partir du coefficient affecte a 
cet element. 

20 Pour ce faire , lors de 1' etape 52 suivante, une 

variable "score-theme" , representative du score du 
document dans un theme donne est positionnee a 1, et ce 
pour tous les themes. 

Ensuite, pour tout element du document, et pour 

25 chaque theme de 1 1 arborescence des themes, si 1' element 
se situe parmi la liste des elements caracteristiques du 
'theme, on lit le score R, e'est a dire la valeur du 
. rapport des frequences pour chaque Element et on 
multiplie les valeurs lues du score R pour chacun de ces 

30 elements . 

Le resultat de cette multiplication est ensuite 
affecte a la valeur de la caracteristique score 
theme (etape 54) . 

On decide alors que les themes reconnus dans le 
35 document 50 sont ceux dont la caracteristique score 
theme atteint ou depasse le score a atteindre pour ces 
themes (etape 56) . 
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On dispose alors, a l ! issu de cette procedure, de 
1" ensemble 57 des themes sur le ou lesquels porte le 
document 50 recupere. 

On congoit done que cette procedure de calcul 
5 automatique des themes des documents recuperes par les 
robots 44 permet au module d' indexation d'un moteur de 
recherche de classer ces documents en fonction des themes 
abordes et de constituer les bases 42 de donn6es 
thematiques . 

10 Une telle procedure de calcul automatique de theme 

de documents peut egalement etre utilisee pour determiner 
'les themes abordes dans une requete formulee par un 
utilisateur . 

Pour ce faire, a partir de cette requete, pour 
15 chacun des elements du vocabulaire d' interrogation 
utilises dans la requete, on calcule les coefficients 
caracteristiques de cet element par rapport a chacun des 
themes connus et l'on associe a chacun de ces elements 
les coefficients et themes de telle maniere que les 
20 coefficients atteignent une valeur minimale. 

Lors de la recherche des entrees d' index 
correspondant aux elements d'une requete, e'est a dire 
pour le calcul des resultats, on accede ainsi directement 
au theme lie aux elements ainsi qu'a leur coefficient, 
25 que l'on combine par multiplication, selon la meme 
procedure que celle decrite plus haut, afin de determiner 
'un classement des themes lies a la requete entiere. 

On congoit done que cette procedure permet de 
proposer a un utilisateur de preciser sa requete, par 
30 exemple, lorsque celle-ci est formulee de fagon vague. 

On congoit Egalement que cette procedure, qui permet 
d f identifier les themes contenus dans une requete, rend 
possible d'effectuer une surveillance des requetes 
utilisateurs afin d'etablir des calculs statistiques 
35 permettant de definir des profils d 1 utilisateurs en 
fonction des requetes. 

On saisira alors que 1' invention qui vient d'etre 
decrite peut etre utilisee pour la recherche de themes 
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contenus dans des pages recuperees sur un reseau 
informatique, pour la determination de themes contenus 
dans une requete formulee par un utilisateur et, a partir 
de cette determination, pour le filtrage des requetes et 
5 egalement des pages recuperees, afin d'interdire la 
formulation de requete ou la recuperation de pages 
portant sur des themes predetermines interdits, et pour 
1' elaboration des profils d' utilisateurs . 

On notera cependant que dans le cas de la 
10 determination des themes contenus dans une requete, cette 
derniere est consideree comme constituant un document 
*presente en entree du module de classification thematique 
selon 1' invention. 

L' invention n'est pas limitee au mode de realisation 
15 envisagee. 

En effet, il est egalement possible, en variante, de 

r6gler manuellement la valeur de seuil a partir de 

laquelle on decide qu'un document porte ou non sur un 
theme donne . 
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RE VEND I CAT I ONS 

1- Procede de classification thematique de 
documents, notamment pour la constitution ou la mise a 
jour de bases de donnees thematiques pour moteur de 
recherche, caracteris£ en ce qu'il comporte les etapes 
suivantes : 

on s§lectionne un echantillon de documents 
representatifs de chaque th£me ; 

- on identifie, dans les documents selectionnes, des 
elements caracteristiques de chaque theme ; 

on affecte, a chaque element identifier un 
coefficient (R) representatif de la pertinence de cet 
element vis a vis du theme correspondant ; 

- pour chaque document (50) a classifier, on 
identifie lesdits Elements caracteristiques de chaque 
th£me qu'il contient et, pour chaque theme qui leur 
correspond, on calcule, a partir du coefficient affecte a 
ces elements, la valeur d'une caracteristique 
representative de la pertinence du theme pour ce document 
(50), pour decider si ce document porte ou non sur ce 
theme, lesdites etapes d' identification et de calcul 
etant realisees automatiquement pour chaque document 
recupere sur un reseau informatique ; 

- on classe les documents recuperes en fonction des 
25 themes qui y sont abordes ; et 

- l'on stocke les documents classes par themes dans 
des bases de donnees interrogeables a partir de themes 

. contenus dans une requete ; 

et en ce que l'£tape d 1 affectation dudit coefficient 
a chaque Element identifie comprend les etapes suivantes, 
pour chaque theme : 

- calcul de la frequence de 1' element dans les 
documents selectionnes portant sur ce theme, 

- calcul de la frequence de 1 '.element dans les 
35 documents s61ectionne ne portant pas sur ce theme, et 

- calcul du rapport entre les frequences calculees. 
2. Procede selon la revendication 1, caracterise en 

ce qu'il comporte en outre une etape de tri des themes 
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selon une arborescence de themes et par ordre decroissant 
des coefficients, 

3. Procede selon la revendication 1 ou 2, 
caracterise en ce que l'6tape de calcul de la 

5 caracteristique representative de la pertinence du thdme 
d'un document a classifier comprend les etapes suivantes, 
pour chaque theme : 

- on lit la valeur du rapport (R) desdites 
frequences de chaque element representatif du theme 

10 extrait du document, 

- on multiplie les valeurs lues, 'et 

- on affecte le resultat de cette multiplication a 
la valeur de ladite caracteristique. 

4. Procede selon l'une quelconque des revendications 
15 1 a 3, caracterise en ce que 1 1 on decide que le document 

porte sur un theme si la valeur de ladite caracteristique 
representative de la pertinence du theme pour ce document 
est superieure a une valeur de seuil. 

5. Procede selon la revendication 4, caracterise en 
20 ce que la valeur de seuil est elaboree, pour chaque 

theme, a partir desdits rapports de frequence, selon la 
relation suivante : 

score . seuil th6me = (R moy )ntheme 
dans laquelle : 
25 score - seuil ch6me designe la valeur de seuil 

R,noy represente la valeur moyenne des rapports de 

frequences R des elements du theme et, 
ntheme designe un nombre predetermine. 

6. Procede selon la revendication 4, caracterise en 
30 ce que la valeur de seuil est reglee manuellement . 

7. Procede selon l'une quelconque des revendications 
1 a 6, caracterise en ce que les etapes d' identification 
des elements caracteristiques de chaque theme contenu 
dans un document (50) sont realisees aumoyen d'une table 

35 de hachage. 

8. Procede selon l ! une quelconque des revendications 
1 a 7, caracterise en ce que 1'on calcule, pour chaque 
element de vocabulaire d'une requete formulee par 
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1' utilisateur, des coefficients caracteristiques de 
1' element par rapport a chaque theme connu et l'on 
associe a chaque element les coefficients et les themes 
correspondant, de sorte que lesdits coefficients 
5 atteignent une valeur minimale. 

9. Module de classification thematique de documents 
(50), notamment pour moteur de recherche, caracterise en 
ce qu ! il comporte une unite centrale de traitement 
comprenant des moyens de comparaison d 1 elements extraits 

10 de chaque document avec des elements caracteristiques de 
differents themes, affectes chacun d'un coefficient (R) 
representatif de la pertinence de cet element pour un 
theme correspondant , et des moyens de calcul de la valeur 
d f au moins une caracteristique representative de la 

15 pertinence d'un theme pour ce document, a partir des 
coefficients desdits elements caracteristiques qu'il 
contient, pour decider si ce document (50) porte ou non 
sur ce theme, ladite unite centrale etant raccordee a des 
moyens de stockage de documents classes par themes, 

20 interrogeables a partir de themes contenus dans une 
requete, et en ce qu'il comporte des moyens de calcul de 
la frequence de 1' element dans les documents selectionnes 
portant sur ce theme, des moyens de calcul de la 
frequence de 1' element dans les documents selectionnes ne 

25 portant pas sur ce theme, et des moyens de calcul du 
rapport entre les frequences calculees. 

10. Utilisation d'un module de classification 
. thematique de documents selon la revendication 9 pour la 

determination de themes contenus dans une requete 
30 formulee par un utilisateur. 

11. Utilisation d'un module de classification 
thematique de documents selon la revendication 9 pour la 
determination de themes contenus dans des pages 
recuperees sur un reseau informatique ou dans une requete 

35 formulee par un utilisateur et le filtrage des documents 
recuperes pour interdire la consultation de pages portant 
sur un ou des themes predetermines. 
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12. Utilisation d'un module de classification thema- 
tique de documents selon la revendication 9 pour la de- 
termination de themes contenus dans une requete formulee 
par un utilisateur et 1' elaboration de profils d'utilisa- 

5 teurs a partir des themes sur lesquels porte la requete. 

13. Moteur de recherche de documents sur un reseau 
informatique, comprenant un module d' indexation pour la 
creation et la mise a jour de bases de donnees 
thematiques, a partir de documents recuperes sur le 

10 reseau informatique, et un module d 1 interrogation des 
bases de donnees thematiques adaptees pour fournir des 
references de documents correspondant a une requete regue 
en entree, caracterise en ce qu'il comporte en outre un 
module de classification thematique selon la 

15 revendication 9, associe au module d 1 indexation . 
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